智能论文笔记

TYPIC: A Corpus of Template-Based Diagnostic Comments on Argumentation

Shoichi Naito , Shintaro Sawada , Chihiro Nakagawa , Naoya Inoue , Kenshi Yamaguchi , Iori Shimizu , Farjana Sultana Mim , Keshav Singh , Kentaro Inui

分类：自然语言处理

2022-01-18

提供有关学习者论证的反馈对于发展批判性思维技能至关重要，但是，它需要大量的时间和精力。为了减轻教师的过载，我们旨在自动化提供反馈的过程，尤其是给出诊断评论，以指出论点固有的弱点。建议给出特定的诊断评论，以便学习者可以识别诊断而不会误解。但是，如何制定提供特定的诊断评论的任务并不明显。我们将任务的表述作为模板选择和插槽填充，以使自动评估变得更加容易，并且模型的行为更加可行。该公式的关键是创建足以实用的模板集的可能性。在本文中，我们定义了三个标准，即模板集应满足：表达性，信息性和唯一性，并验证创建一个满足这些标准作为第一个试验的模板集的可行性。我们将通过一项注释研究证明，将文本中给出的诊断评论转换为模板格式是可行的。注释研究中使用的语料库公开可用。

translated by 谷歌翻译

Gromov-Wasserstein Autoencoders

Nao Nakagawa , Ren Togo , Takahiro Ogawa , Miki Haseyama

分类：机器学习 | 计算机视觉

2022-09-15

在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型，例如变异自动编码器（VAE），以基于元元素来学习潜在表示，这是对下游任务有益的一般前提（例如，disentanglement）。但是，这种方法通常偏离原始的可能性体系结构，以应用引入的元优势，从而导致他们的培训不良变化。在本文中，我们提出了一种新颖的表示学习方法，Gromov-Wasserstein自动编码器（GWAE），该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标，而是通过最小化Gromov-Wasserstein（GW）度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异，例如具有不同的维度。通过限制可训练的先验的家庭，我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明，GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。

translated by 谷歌翻译

Expressions Causing Differences in Emotion Recognition in Social Networking Service Documents

Tsubasa Nakagawa , Shunsuke Kitada , Hitoshi Iyatomi

分类：自然语言处理 | 人工智能 | 机器学习

2022-08-30

通常很难从网上交换的文本中正确推断作家的情绪，而作家和读者之间的认可差异可能会出现问题。在本文中，我们提出了一个新的框架，用于检测句子，以在作者和读者之间在情感识别上产生差异，并检测引起这种差异的表达方式。所提出的框架由基于变压器（BERT）的检测器的双向编码器表示，该表示器检测句子，导致情绪识别差异，并分析获得在此类句子中特征性出现的表达式。该探测器基于由作者和社交网络服务（SNS）文档的三个读者注释的日本SNS文档数据集，并以AUC = 0.772检测到“隐藏的天角句子”；这些句子引起了人们对愤怒的认识的差异。由于SNS文档包含许多句子，这些句子的含义很难通过分析该检测器检测到的句子来解释，因此我们获得了几种表达式，这些表达式在隐藏的角度句子中出现。被发现的句子和表情并不能明确传达愤怒，很难推断作家的愤怒，但是如果指出了隐性的愤怒，就有可能猜测作者为什么生气。在实际使用中，该框架很可能有能力根据误解来缓解问题。

translated by 谷歌翻译

Automatic music mixing with deep learning and out-of-domain data

Marco A. Martínez-Ramírez , Wei-Hsiang Liao , Giorgio Fabbro , Stefan Uhlich , Chihiro Nagashima , Yuki Mitsufuji

分类：机器学习

2022-08-24

传统上，音乐混合涉及以干净，单个曲目的形式录制乐器，并使用音频效果和专家知识（例如，混合工程师）将它们融合到最终混合物中。近年来，音乐制作任务的自动化已成为一个新兴领域，基于规则的方法和机器学习方法已被探索。然而，缺乏干燥或干净的仪器记录限制了这种模型的性能，这与专业的人造混合物相去甚远。我们探索是否可以使用室外数据，例如潮湿或加工的多轨音乐录音，并将其重新利用以训练有监督的深度学习模型，以弥合自动混合质量的当前差距。为了实现这一目标，我们提出了一种新型的数据预处理方法，该方法允许模型执行自动音乐混合。我们还重新设计了一种用于评估音乐混合系统的听力测试方法。我们使用经验丰富的混合工程师作为参与者来验证结果。

translated by 谷歌翻译

Training Process of Unsupervised Learning Architecture for Gravity Spy Dataset

Yusuke Sakai , Yousuke Itoh , Piljong Jung , Keiko Kokeyama , Chihiro Kozakai , Katsuko T. Nakahira , Shoichi Oshino , Yutaka Shikano , Hirotaka Takahashi , Takashi Uchiyama

分类： (统计)机器学习

2022-08-07

来自重力波检测器的数据中出现的瞬态噪声通常会引起问题，例如检测器的不稳定性以及重叠或模仿重力波信号。由于瞬态噪声被认为与环境和工具相关联，因此其分类将有助于理解其起源并改善探测器的性能。在先前的研究中，提出了用于使用时频2D图像（频谱图）进行瞬态噪声进行分类的体系结构，该架构使用了无监督的深度学习与变异自动编码器和不变信息集群的结合。提出的无监督学习结构应用于重力间谍数据集，该数据集由高级激光干涉仪重力波动台（Advanced Ligo）瞬态噪声与其相关元数据进行讨论，以讨论在线或离线数据分析的潜力。在这项研究的重点是重力间谍数据集中，研究并报告了先前研究的无监督学习结构的训练过程。

translated by 谷歌翻译

Fractional SDE-Net: Generation of Time Series Data with Long-term Memory

Kohei Hayashi , Kei Nakagawa

分类：机器学习 | (统计)机器学习

2022-01-16

在本文中，我们专注于使用神经网络的时间序列数据的生成。通常情况下，输入时间序列数据仅实现了一个（通常是不规则采样）路径，这使得很难提取时间序列特征，并且其噪声结构比I.I.D更为复杂。类型。时间序列数据，尤其是来自水文，电信，经济学和金融的数据，也表现出长期记忆，也称为长期依赖性（LRD）。本文的主要目的是在神经网络的帮助下人为地生成时间序列，并考虑到路径的LRD。我们提出了FSDE-NET：神经分数随机微分方程网络。它通过使用大于一半的HURST索引的分数Brownian运动来概括神经随机微分方程模型，该方程式大于一半。我们得出FSDE-NET的求解器，并理论上分析了FSDE-NET溶液的存在和唯一性。我们对人工和实时序列数据进行的实验表明，FSDE-NET模型可以很好地复制分布属性。

translated by 谷歌翻译

Fully automatic scoring of handwritten descriptive answers in Japanese language tests

Hung Tuan Nguyen , Cuong Tuan Nguyen , Haruki Oka , Tsunenori Ishioka , Masaki Nakagawa

分类：机器学习 | 自然语言处理 | 计算机视觉

2022-01-10

本文提出了在新日本大学入学考试中自动评分手写描述性答案的实验，这是2017年和2018年的约120,000名审查。大约有400,000个答案超过2000万个字符。虽然人类审查员的所有答案都得到了评分，但手写字符没有标记。我们展示了我们试图调整基于神经网络的手写识别员，在标记的手写数据集上培训到此未标记的答案集。我们所提出的方法结合了不同的培训策略，集成了多个识别器，并使用由大型常规语料库构建的语言模型来避免过度填充到特定数据。在我们的实验中，使用约2,000个验证标记的答案记录了超过97％的字符精度，该标记答案占数据集的0.5％。然后，将认可的答案基于BERT模型进入预先训练的自动评分系统，而无需纠正误识别的字符并提供Rubric注释。自动评分系统从二次加权Kappa（QWK）的0.84到0.98达到0.84至0.98。由于QWK超过0.8，它代表了自动评分系统与人类审查员之间得分的可接受相似性。这些结果是对描述性答案的结束自动评分的进一步研究。

translated by 谷歌翻译

Improving Nonparametric Classification via Local Radial Regression with an Application to Stock Prediction

Ruixing Cao , Akifumi Okuno , Kei Nakagawa , Hidetoshi Shimodaira

分类： (统计)机器学习 | 人工智能 | 机器学习

2021-12-28

对于监督分类问题，本文考虑通过使用观察到的协变量来估算查询的标签概率。众所周知的非参数内核更顺畅，并在查询周围的球上占据平均值的$ k $-n $-nnn）估算器，但特别是对于球的大半径偏向而渐近偏差。消除这种偏差，本地多项式回归（LPOR）和Multiscale $ K $ -NN（MS-$ K $ -NN）通过围绕查询周围的本地回归来学习偏置术语并将其推断给查询本身。然而，他们的理论最优性已经显示为无限数量的训练样本的限制。为了纠正具有较少观察的渐近偏差，本文提出了一种局部径向回归（LRR）及其逻辑回归变量，称为局部径向逻辑回归（LRLR），通过结合LPOS和MS-$ K $ -NN的优点。这个想法很简单：通过将径向距离作为解释变量将径向距离施加到观察标签的本地回归，然后将估计的标记概率推断为零距离。我们的数值实验包括日常股票指数的现实世界数据集，证明了LRLR胜过LPOR和MS $ K $ -NN。

translated by 谷歌翻译